JSAI2026 大規模視覚言語モデルを用いた候補レコード群による制約付き推論に基づく画像アイテムの同定 - daiiz

JSAI2026 大規模視覚言語モデルを用いた候補レコード群による制約付き推論に基づく画像アイテムの同定

ダンボール画像からのアイテム特定

候補レコード群から選ぶ

全探索ではない

画像IDを解決する

候補レコード群

難しさ: 似たようなレコードが存在する

課題

表記揺れ

画像中の表記と候補群は単純な文字列一致ではだめ

選択式記述

丸印で選択されている

文字を読むだけではだめ

既存手法: OCR→照合の課題

OCR時点では候補群を参照できない

提案手法

候補レコード群＋画像をプロンプトとして渡す

わりとシンプルだった daiiz.icon

プロンプト（4要素）

タスク定義

ドメイン知識

略称で記載される可能性の説明

丸囲み出の単数選択のルール

候補レコード群

出力形式

JSON形式でIDを記述させる

評価

ダンボール約400枚

結果

提案手法がもっとも良い